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基于 非 鲁 棒 特 征 的 图 卷 积 神经 网 络 对 抗 训练 方法 
承 琪 ， 朱 洪亮 ， 辛 ” 阳 


(北京 邮电 大 学 网 络 空间 安全 学 院 ， 北京 100876) 


摘 要 : 图 卷 积 神经 网 络 可 以 通过 图 卷 积 提取 图 数据 的 有 效 信息 ， 但 容易 受到 对 抗 攻击 的 影响 导致 模型 性 能 下 降 。 
对 抗 训练 能 够 用 于 提升 神经 网 络 鲁 棒 性 ， 但 由 于 图 的 结构 及 节点 特征 通常 是 离散 的 ， 无 法 直接 基于 梯度 构造 对 抗 扰 
动 ， 而 在 模型 的 网 入 空间 中 提取 图 数据 的 特征 作为 对 抗 训练 的 样本 ， 能 够 降低 构造 复杂 度 。 借 鉴 集成 学 习 思 想 ， 提 
出 一 种 基于 非 鲁 棒 特征 的 图 卷 积 神经 网 络 对 抗 训练 方法 VDERG， 分 别针 对 拓扑 结构 和 节点 属性 两 类 特征 ， 构 建 两 
个 图 卷 积 神经 网 络 子 模型 ， 通 过 衣 入 空间 提取 非 便 棒 特 征 ， 并 基于 非 鲁 棒 特征 完成 对 抗 训练 ， 最 后 集成 两 个 子 模 型 
输出 的 嵌入 向 量 作 为 模型 节点 表示 。 实 验 结果 表明 ， 提 出 的 对 抗 训练 方法 在 干净 数据 上 的 准确 率 平均 提升 了 0.8%， 
在 对 抗 攻击 下 最 多 提升 了 6.91% 的 准确 率 。 
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Graph neural networks adversarial training with non-robust features 
Cheng Qi, Zhu Hongliang', Xin Yang 
(Cyber Security, Beijing University of Posts & Telecommunications, Beijing 100876, China) 


Abstract: Graph convolutional neural networks can distill the effective information of graph data through graph convolution. 
However, the graph convolutional neural network show vulnerability to adversarial attack, which leads to the degradation of 
model performance. Adversarial training can be used to improve the robustness of neural networks. However, since the 


structure and node features of graphs are usually discrete, it is impossible to directly construct adversarial examples based on 
gradients. Therefore, distilling feature of graph data in the embedding space of models as adversarial examples can reduce the 
complexity of adversarial training. By using the idea of the idea of ensemble learning, this paper innovatively proposes an 


adversarial training method based on non-robust features distillation for graph convolution network, VDERG. The method 
pl bs constructed two graph convolution neural networks as sub models from the two types of features of topology and node 
attributes respectively. Sub models distilled non-robust features through embedding space and used these features to 


re implement adversarial training. Finally, the method combined the embedding given by the two sub models as the nodes’ 
vectors. Experimental results show that the adversarial training strategy improves the accuracy of graph convolution neural 
networks in clean data by 0.8% on average, and improves the accuracy by 6.91% at most under adversarial attack. 


Key words: graph convolutional neural network; ensemble learning; non-robust features; adversarial training 


0 引言 升 GCN 和 鲁 棒 性 展开 。 
法 对 抗 训练 外 被 广泛 用 于 提升 神经 网 络 的 鲁 棒 性 ， 通过 在 
图 作为 一 种 具有 普遍 性 的 数据 结构 ， 可 以 广泛 用 于 表示 “模型 训练 过 程 中 加 入 对 抗 样本 ， 使 神经 网 络 适应 对 抗 扰动 ， 
不 同 领域 中 的 系统 , 例如 经 济 领域 (交易 网 络 )\ 社会 科学 领域 。” 从 而 提升 对 抗 攻 击 下 的 模型 表现 。 现 有 针对 GCN 的 对 抗 训 
(社交 网 络 和 引文 网 络 )、 自然 科学 领域 (分 子 结构 ) 和 知识 图 等 。 练 方法 研究 主要 集中 于 针对 单个 模型 构造 扰动 正则 项 或 修改 
近年 来 图 神经 网 络 (graph neural network, GNN) 在 学 习 图 表示 图 结构 ， 少 有 研究 从 集成 的 角度 借助 多 个 分 类 器 的 学 习 能 
方面 取得 了 令 人 瞩目 的 成 果 。 其 中 ， 图 卷 积 神经 网 络 (graph 是 升 模型 的 鲁 棒 性 。 
convolutional neural network, GCN) 通 过 利用 边 的 信息 对 节点 对 抗 攻 击 的 特征 之 一 是 在 神经 网 络 间 具有 泛 化 性 
信息 进行 聚合 生成 节点 表示 ,在 图 信息 的 提取 方面 效果 显著 。 ”过 集成 多 个 神经 网 络 模型 分 别 进行 对 抗 训练 ， 能 够 使 总 体 模 
从 图 中 提取 出 的 特征 可 以 用 于 节点 分 类 、 链 路 预测 、 图 分 类 型 学 习 到 更 全 面 的 特征 信息 , 从 而 提升 模型 鲁 棒 性 。 文 献 [4,5] 
中 出 
有 


mr Ec 


EN 


等 任务 ， 在 数据 挖掘 、 推 荐 系统 等 领域 有 着 广泛 的 应 用 。 指出 , 基于 集成 学 习 的 防御 算法 效果 依赖 于 子 模型 的 多 样 化 。 
已 有 研究 证 明 缺 乏 鲁 棒 性 的 神经 网 络 容易 受到 对 抗 攻击 “只 有 使 子 模型 分 别 学 习 到 不 同 的 特征 ， 才 能 避免 对 抗 扰 动 在 
的 影响 ， 即 加 入 了 微小 扰动 的 对 抗 样本 ， 会 大 大 降低 神经 网 。“ 子 模型 间 迁 移 ， 有 效 提 升 总 体 模型 的 防御 能 力 。 考 虑 到 图 数据 
络 的 模型 表现 叫 。 Dai 等 人 中 发 现 随机 丢弃 节点 间 的 边 就 能 对 ”的 特征 ，Wu 等 人 四 构造 了 包含 两 个 子 模型 的 集成 模型 ， 分 别针 
神经 网 络 造成 较 好 的 攻击 效果 。GCN 的 脆弱 性 可 能 在 其 应 ”对 拓扑 结构 信息 和 节点 属性 信息 进行 模型 训练 , 以 此 提升 GNN 
领域 导致 安全 问题 ， 例 如 在 信用 检测 系统 中 ， 欺 诈 者 可 以 ” 和 鲁 棒 性 ,但 仅仅 通过 在 结构 信息 和 属性 信息 上 分 开 训练 子 模型 ， 
过 与 几 个 高 信用 用 户 伪 装 多 个 交易 ， 从 而 在 模型 检测 中 获 。 ”没有 考虑 对 抗 攻击 的 攻击 特点 ， 在 结构 信息 和 属性 信息 都 受到 
得 “高 信用 用 户 ” 的 虚假 结果 外 。 因 此 开始 有 大 量 研 究 针 对 提 ” ”攻击 的 情况 下 仍 可 能 产生 较 大 的 预测 偏差 。 
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率 提升 0.2 左右 。 图 数据 的 离散 1 


行 模型 训练 本 质 上 是 从 医 
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生 给 GCN 上 的 对 抗 训练 带 来 


F 矩 阵 上 直接 加 入 扰动 的 方法 能 够 


了 挑战 ， 在 邻接 矩阵 或 特 4 


训练 方法 的 复杂 度 。 


毕 特 征 分 为 鲁 棒 特 征 


于 提高 模型 的 性 能 ， 通 过 结合 


寺 征 即 使 在 对 抗 攻 击 下 ， 


集成 学 习 被 广泛 研究 


晶 的 泛 化 性 。 由 于 神经 网 络 模型 总 


提取 类 似 的 特征 进行 学 习 ， 对 抗 攻击 在 
泛 化 性 0。 基于 集成 学 习 的 对 抗 
使 不 同 子 模型 间 具 有 不 同 的 对 抗 子 
间 (adversarial space,Adv-SS)03， 防 止 对 抗 攻 击 造成 的 影响 
转移 09。Kariyappa 等 人 四 提出 多 样 性 训练 降低 子 
义 数 的 相关 性 。Pang 等 人 多 提出 了 一 种 自 适 应 的 


虽 上 的 非 鲁 棒 特 生 


六 GCN 模型 鲁 棒 性 


E 极 大 预测 值 具有 多 样 化 。Yang 
下 分布 更 普遍 的 发 现 ， 通过 让 子 


正 以 及 集成 学 习 方 


于 非 鲁 棒 特 征 的 鲁 棒 医 


卷 积 神经 网 络 集成 模 


成 模型 学 习 能 力 ， 提 升 了 模型 


的 表现 。 上述 基于 集成 学 习 的 方法 


型 (vulnerabilities distillation of ensemb 
neural networks, VDERG)。VDERG 利用 图 卷 
| 从 结构 信息 和 属性 信息 
行 对 抗 训练 ， 使 两 个 子 模型 分 别 适应 节点 关 


les for robust graph 


。 张 嘉 杰 等 人 [基于 节点 间 的 特征 相似 度 


成 两 个 子 模型 的 节点 


于 领域 以 提升 模型 表现 和 模型 鲁 


分 别 基 于 结构 信息 和 属性 图 进行 预测 ， 最 
结果 。 这 种 集成 算法 基于 特征 相 


输入 映射 函数 作为 最 终 预 测 结果 。 实 验证 明 本 文 提出 芭 者 的 预测 值 作为 返 


| 


[算法 能 够 有 效 提 高 图 卷 积 神经 网 络 模型 似 的 节点 以 及 相 邻 节点 间 通 常 


有 相似 标签 的 假设 ， 对 于 属性 


并 了 模型 表现 ， 但 在 图 结构 受 


青 况 下 无 法 消除 攻击 影响 , 存在 一 定 的 局 限 性 。 Wu 等 


正 提取 方法 ，b) 提 出 一 种 基于 集成 学 


的 结构 信息 和 属性 信息 进行 学 习 ， 


网 络 算法 ， 通 过 非 鲁 棒 特征 对 子 模型 i 并 在 每 轮 欠 代 中 平 


子 模型 的 置信 度 ， 将 集成 模型 最 有 信 


站 


型 分 别 从 结构 信息 和 属 


I 值 作为 该 节点 的 伪 标 签 ， 并 将 该 节点 加 入 到 训练 集 


FE， 有 效 抵御 对 抗 攻 击 景 


中 ， 以 此 提升 模型 鲁 棒 性 。 该 方法 主要 用 于 解决 半 监 督学 习 


下 缺少 标签 的 问题 ， 没 有 考虑 对 抗 攻击 下 图 结构 和 节点 属性 
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1.3 非 鲁 棒 特 征 研究 


加 
国 


监督 学 习 下 ， 神 经 网 络 通过 提取 学 习 数 据 集中 的 特征 提 


日 于 二 者 相似 的 卷 积 机 


于 卷 积 神经 网 络 同样 容 
(4 六 上 节点 水 平 的 对 抗 了 


升 模型 能 力 ， 神 经 网 络 学 习 到 的 特征 将 直接 决定 其 模型 预测 
能 力 ，Ilyas 等 人 (4 认为 模型 


的 目标 是 找到 一 个 区 


学 习 到 的 泛 化 性 良好 的 特征 
图 像 数 据 集 上 构建 “ 鲁 棒 版 


FE 鲁 棒 版 数据 集 ”， 
经 网 络 容 易 受到 对 抗 攻击 影响 ， 因 此 非 鲁 


chinaXiv 


约束 对 抗 扰动 不 易 被 察觉 ， 即 | 


证 明了 数据 集中 的 非 鲁 棒 


神经 网 络 鲁 棒 性 


上 具有 研究 价值 。Yang 等 


人 13 通过 模型 卷 积 层 
在 提升 模型 鲁 棒 ; 


后 的 嵌入 向 量 提取 图 像 数 据 中 的 非 


于 图 卷 积 神经 网 络 在 节点 表征 


生 的 同时 保证 了 干净 数据 集 


[0 何 提升 GCN 模型 


Sa 


于 提升 GCN 模型 等 人 0 发 现 不 受 对 抗 


完 大 都 集中 在 图 像 领域 ， 但 
影响 的 鲁 棒 特 征 与 图 像 数 据 


数据 的 拉 普 拉 斯 矩阵 同样 可 能 存在 非 


的 脆弱 性 。Jin 等 人 0 的 实验 证 明 ， 


村 征 从 而 导致 GCN 
的 边 和 正常 的 边 会 对 邻接 矩阵 的 秩 和 奇异 值 


抗 样本 上 的 损失 值 ， 即 wncm(#( 外 )。Dai 等 人 串通 过 在 模型 
中 的 边 从 而 对 扰动 邻接 矩阵 ， 但 这 种 
生成 功率 。Dai 等 人 周 基 于 
0 入 噪声 以 进行 针对 投 毒 攻 


训练 过 程 中 随机 丢弃 医 


提出 在 租 入 空间 中 力 则 面 印 证 了 GCN 学 习 至 


tt 


E 成 过 程 所 利用 的 特征 


如 


| 的 特征 中 对 于 对 抗 攻 击 色 


| 了 DeepWalk 在 节点 分 类 任务 上 


的 
于 结构 信息 和 节点 属性 信息 


抗 训练 方法 可 以 扩展 到 一 系列 节点 嵌入 I 非 鲁 棒 特征 研究 应 针对 这 两 方面 


| 
和 鲁 棒 性 的 对 比 验 订 | 比 现实 世界 中 的 图 和 metattack[18] 攻 击 


[扰动 在 节点 间 传 播 


的 相连 节点 大 多 倾向 于 拥有 相似 的 属 


个 麻 了 迅 油 冬 洱 


问题 通过 添加 一 个 对 抗 
的 差异 ， 结 果 表 明 添 力 


则 项 ， 降 低 目 标 样 


图 的 平滑 度 。 文献 [10] 通 过 提升 图 
项 提升 了 模型 表现 。 上 述 研 究 说 明 图 数据 集 


项 的 GCN-GAD 对 


lu 


正 可 能 与 图 的 平滑 度 有 关 。 
基于 非 鲁 棒 特征 的 集成 对 抗 训练 方法 


征 和 矩阵 加 入 扰动 ， 针 对 了 
证 提出 的 GraphDefense 方法 能 够 保证 大 


于 像 领 域 的 非 鲁 棒 特 生 


E 提 取 方 法 启发 ， 本 文 提出 基于 


状 
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录用 定稿 承 琪 ， 等 : 基于 非 鲁 棒 特征 的 图 卷 积 神经 网 络 对 抗 训练 方法 第 39 老 第 8 期 
非 鲁 棒 特 征 的 集成 对 抗 训练 方法 VDERG， 考 虑 图 数据 的 拓 非 鲁 棒 特 征 。 将 非 鲁 棒 特 征 作为 对 抗 样本 , 让 两 个 子 模型 
扑 结 构 信 息 和 节点 属性 信息 ， 在 模型 的 嵌入 向 量 空间 ， 分 别 分 别 在 得 到 的 结构 非 鲁 棒 特 征 和 属性 非 鲁 棒 特 征 上 进行 对 抗 训 
通过 与 随机 图 的 矩阵 差异 和 特征 平滑 度 差异 获得 梯度 ， 对 应 练 , 最 后 对 两 个 子 模 型 的 蔡 入 向 量 求 和 取 平 均 , 通过 softmax 函 
在 邻接 矩阵 和 属性 矩阵 上 进行 迭代 从 而 得 到 图 数据 中 的 数 得 到 节点 预测 标签 。 方 法 整体 流程 如 图 1 所 示 。 
属性 非 鲁 棒 特 征 提取 
& | a M4 对 抗 训练 
“A | 上 | < | 四 
了 上 co -exe | “| 章 | 一 模型 集成 
| 而 四 镶 轴 图 而 Ke | 关 属性 非 鲁 棒 特征 (AT) 
2 加 二 
8 
| am Attack embedding 1 人 
一 
Se » gas I Ss embedding 2 
SA rh 结构 非 重 棱 特征 (SX) 
随机 图 6 1 Hp 对 抗 训练 
图 1 VDERG 方法 流程 图 
Fig.1 Flow chart of VDERG 
2.1 问题 描述 对 GCN 在 图 数据 上 提取 的 非 鲁 棒 特 征 作 出 如 下 定义 : 
定义 一 个 图 为 9=(25 ， 其 中 为 节点 集合 ， 包 含 N 个 9=(4, 习 为 原 图 数据 的 邻接 矩阵 及 属性 矩阵 ，9 = (4 已 ) 为 
节点 {obva uv，2 为 边 的 集合 。 节 点 间 的 关系 可 以 通过 邻 随机 生成 的 、 与 原 图 具有 相同 节点 数 但 节点 关系 、 属 性 特征 
接 矩 阵 4s 了 "人 进行 表示 ， 其 中 如 表示 节点 妈 和 节点 必 间 的 不 同 的 图 数据 。GCN 模型 f 的 第 ! 层 从 图 9 中 提取 出 的 、 对 应 
关系 。 X=[z1,z2)…,Zn]e 民 **” 表 示 节 点 特征 矩阵, Xi; 表示 节点 图 9 的 非 鲁 棒 特 征 及 =(5,D 可 以 由 下 式 定 义 : 
AI dis(0,0) = arg min [a (1(S), "(A)) + BR(F'(T), CD) 
常见 的 节点 分 类 任务 设 定 ， 本 文 假定 数据 集中 只 有 部 分 0 
节点 Vi 一 {vyv2,…,04} 带 有 标签 7 一 {yy2…,94}, 其 中 节点 3S—Al»se IT-Xl.s 
vi 的 标签 对 应 为 y;。 则 对 于 节点 分 类 任务 ,给 定 图 9=(4,X) 其 中 ,了 () 表 示 GCN 模型 第 1 个 隐藏 层 在 激励 函数 (如 ReLU) 
以 及 部 分 节点 标签 7》;，GCN 的 目标 是 学 习 一 个 能 够 将 节 前 的 输出 。 考 虑 到 对 抗 攻 击 可 以 通过 修改 节点 间 关 系 或 节点 
点 映射 到 一 组 标签 的 函数 fo:Vi 一 7;:， 并 利用 函数 对 无 属性 对 GCN 模型 产生 干扰 ， 式 (3) 代 表 的 特征 提取 过 程 分 别 
标签 的 节点 进行 分 类 预测 ， 学 习 过 程 可 以 由 以 下 公式 进 从 邻接 矩阵 和 属性 矩阵 两 方面 进行 约束 优化 ， 目 标 是 从 图 9 
行 描述 : 中 提取 出 可 能 让 GCN 模型 混淆 识别 为 图 9 的 特征 ， 即 图 9 中 
minCeov(g,4X DZ= DL((X,4) si) (1) 的 非 鲁 棒 特征 。 
a We 式 (3) 的 第 一 项 I(f'(5),f'(4)) 通 过 最 小 化 原 图 邻接 矩 
其 中 ，9 为 需要 学 习 的 fo 的 参数 ，fo(X,4); 表 示 节 点 v; 的 预测 阵 4 和 提取 邻接 特征 5 在 艇 入 空间 的 差异 , 使 从 节点 关系 
值 ，《(,*) 表 示 预 测 值 和 标签 之 间 的 差异 ， 通 常用 交叉 炳 函数 中 提取 的 特征 接近 GCN 学 习 到 的 节点 关系 信息 。 可 以 通 
计算 。 目 前 最 常用 的 GCN 结构 为 两 层 GCN05]， 即 模型 参数 过 约束 (5) 和 了 (4) 的 范 数 实现 上 述 目标 ， 即 可 以 将 第 
0 二 (WV,W2)， 则 函数 掺 可 以 进一步 细 化 为 一 项 重 写 为 
~ /~ LF'(S), FA) =F (0) — F(A? (4) 
fo(X, A)=softmax (Ao (AXW)W) O) 而 第 二 项 R(P'(CD,POO) 则 考虑 从 节点 的 属性 信息 中 提 
其 中 ，4=D 2(4+ DD 表示 对 邻接 矩阵 进行 标准 化 ，D 表 取 特 征 。 对 抗 攻击 在 连接 属性 差异 大 的 节点 或 删除 相似 节点 
示 4 十 对 角 和 矩阵 , =1+ 多; o 表示 激励 函数 , 常用 ReLU 函数 。 间 链 接 时 ， 会 降低 图 的 平滑 度 ， 因 此 本 文 考虑 通过 最 小 化 原 
基于 上 述 定 义 ， 给 定 图 98=(4,X) 和 标签 了 ,本文 提 出 的 图 属性 矩阵 站 和 提取 属性 特征 T 了 间 的 特征 平滑 度 差异 ， 
VDERG 算法 将 针对 投 毒 攻击 ， 在 邻接 矩阵 4 和 特征 和 矩阵 了 节点 属性 中 提取 的 特征 接近 GCN 学 习 的 节点 属性 信息 ， 
可 能 被 投 毒 的 前 提 下 ,学 习 GCN 模型 参数 9, 通过 对 抗 训 练 式 (3) 的 第 三 项 可 以 被 重 写 为 


得 到 一 个 具有 鲁 棒 性 的 _GCN 模型 ， 提 升 对 抗 攻 击 下 无 标签 
R T X =| Snrn(f (6 )— ft) 一 
节点 上 的 预测 分 类 表现 。 U 7 00) De hi 
2.2 非 鲁 棒 特 征 提取 
A 了 (Zn 本 
GCN 通过 提取 图 数据 中 的 特征 学 习 节 点 的 嵌入 表示 , 提 2 fm) fm) | 
取 过 程 中 所 利用 的 图 数据 特征 中 ， 一 部 分 特征 具有 和 鲁 棒 性 ， 4 表示 数据 的 人 接 和 降 ，d 表示 节点 上 和 必 相 天 
即 不 易 受到 对 抗 攻击 扰动 的 影响 ， 反 之 则 为 非 鲁 棒 特 征 ， 受 (mm -zj 衡量 了 节点 和 四 通 过 GCN 模型 得 到 的 嵌入 向 量 
到 攻击 后 会 使 模型 的 表现 下 降 。 本 的 
《 异 。5 nT, 一 zm 衡量 妈 ( 4 和) 的 特征 平滑 度 差异 
设想 最 理想 的 非 鲁 村 特征 提取 情况 ， 提 取得 到 的 扰动 图 。 站 的 差异 。2, 和 ,4"(m-“) 衡量 了 图 (4,X) 的 特征 平滑 度 差 
中 蕴涵 所 有 可 能 干扰 GCN 的 非 鲁 棒 特 征 ， 且 原 图 数据 和 拓 本 | 
5 2 5m( 一 如 》 同 理 。 通 过 约束 特征 平滑 度 差异 进行 属性 特 
动 图 数据 间 的 差异 巨大 ， 但 通过 GCN 模型 后 得 到 了 相同 的 。 ,2 ”7 同 理 。 通 过 约束 特征 平滑 度 差异 进行 属性 特 
嵌入 向 量 ， 如 图 2 所 示 ， 则 扰动 图 中 包含 的 非 鲁 棒 特 征 将 对 征 提 取 ， 充 分 考虑 了 现实 中 攻击 者 常常 将 差异 较 大 的 节点 相 
GCN 生成 节点 嵌入 表示 产生 致命 影响 。 基于 以 上 理论 ， 本 文 。 连 以 降低 模型 预测 能 力 的 攻击 特点 。 
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图 2 非 鲁 棒 特征 示意 图 
Fig.2 An illustrative example on non-robust features 
2.3 ”基于 非 鲁 棒 特 征 的 集成 对 抗 训练 
集成 学 习作 为 一 种 训练 思路 能 够 用 于 提升 模型 鲁 棒 性 ， 
通过 让 集成 学 习 中 的 子 模型 分 别 学 习 到 不 同 的 特征 ， 能 够 在 
保持 简单 模型 结构 的 前 提 下 提升 模型 表现 。 而 若 能 让 不 同 子 
模型 学 习 到 不 同 的 非 鲁 棒 特 征 ， 则 能 避免 对 抗 攻 击 的 泛 化 性 
影响 到 所 有 子 模型 , 提升 集成 后 的 模型 表现 基于 上 述 理论 ， 
本 文采 用 集成 学 习 思想 ， 采 用 两 个 子 模型 分 别 从 节点 关系 和 
节点 属性 两 个 方面 提取 图 数据 中 的 非 鲁 棒 特 征 ， 并 利用 提取 
的 非 鲁 棒 特 征 对 模型 进行 对 抗 训练 。 对 抗 训练 常 通过 在 样本 
中 加 入 微小 扰动 ， 使 神经 网 络 适应 扰动 从 而 提升 对 抗 样本 上 
的 模型 鲁 棒 性 。 但 图 数据 作为 非 欧 几 里 德 数据 结构 ， 无 法 通 
过 梯度 相关 方法 构造 对 抗 样本 。 因 此 ， 通 过 提取 的 特征 对 模 
型 进行 对 抗 训 练 ， 避 开 了 构造 对 抗 样本 过 程 中 需要 考虑 的 数 
据 离 散 问 题 ， 更 加 简单 且 上 共有 可 解释 性 。 
2.3.1 基于 节点 关系 的 非 鲁 棒 特 征 学 习 方 法 
参考 式 (1) 和 (2), 第 一 个 子 模型 从 邻接 矩阵 中 提取 节点 关 

系 所 含 非 鲁 棒 特 征 (5, 关 ) 的 过 程 可 以 用 下 式 表示 : 

arg min£, = 1 f°(5)— f(A) Ns, 

1S—A|~ 
有 其中， a 第 二 层 卷 积 层 后 、 激 励 函 数 前 
的 葡 入 向 量 。 通 过 约束 特征 8 和 随机 图 邻接 矩阵 4 间 的 差异 
小 于 e， 最 小 化 ?和 原 图 邻接 矩阵 4 在 嵌入 空间 中 的 差异 距离 ， 
从 随机 图 9 的 邻接 矩阵 中 提取 出 与 随机 图 9' 相 似 ， 但 会 错 使 
GCN 模型 预测 为 图 9 的 非 鲁 棒 特征 。 则 第 一 个 子 模型 进行 对 
抗 训练 时 的 目标 损失 函数 为 

arg minL1= Lj = Locw(0,S,X, 1), 

5 


(6) 


(7) 

15 一 4 -<e 
其 中 ， Ceov(05X DJD 是 第 一 个 GCN 子 模型 在 输入 特征 
(5,X) 上 的 损失 函数 ,通过 最 小 化 式 (7), 能 够 训练 第 一 个 模型 学 


习 到 节点 关系 中 包含 的 非 鲁 棒 特征 ， 提 升 模型 的 鲁 棒 性 。 
2.3.2 基于 节点 属性 的 非 鲁 棒 特征 学 习 方 法 
参考 式 (1) 和 (3)， 同 样 基于 GCN 第 二 层 卷 积 层 后 的 嵌入 
量 ， 第 二 个 子 模型 从 属性 矩阵 中 提取 节点 属性 所 含 非 鲁 棒 
寺 征 ( 4, 了 T) 的 过 程 可 以 用 下 式 表示 : 


从 旦 


arg minLs 3 | DS mn( fest,)— fo (t,)) — 
人 N 8 
DD 4.(P(a] 一 天 (aojj 人 
IT—- Xl.<¢ 

式 中 ， 包 表示 第 二 个 子 模型 的 第 二 层 卷 积 励 函数 前 


网 NI 
台 二 
薄 


的 嵌入 向 量 。 类 似 地 ， 约 束 特征 了 和 随机 棋 


届 性 矩阵 的 差异 


琪 ， 等 : 基于 非 鲁 棒 特 征 的 图 卷 积 神经 网 络 对 抗 训练 方法 


ChinaXiv 合 作 期 刊 
第 39 卷 第 8 期 


小 于 5， 并 最 小 化 了 和 原 图 属性 矩阵 式 在 嵌入 空间 中 的 特征 
滑 度 差异 ， 以 此 从 随机 图 9 的 属性 矩阵 中 提取 出 对 应 图 9 的 
非 鲁 棒 特 征 。 则 第 二 个 子 模型 进行 对 抗 训练 时 的 目标 损失 函 


EF 


arg minLs= Lj, = Locn(0;, A,T, Y7), 
jr 


(9) 
| 开 一 并 | 大 5 
其 中 ， Lecn(0s,4,T， 2 是 第 三 个 GCN 子 模型 在 输入 特征 
(4,T) 上 的 损失 函数 。 式 (9) 能 够 训练 第 二 个 子 模型 从 节点 属性 
的 角度 学 习 非 鲁 棒 特征 ， 降 低 对 抗 攻击 的 影响 效果 。 
2.3.3 基于 集成 学 习 的 对 抗 训练 策略 

基于 上 述 非 鲁 棒 特征 学 习 方法 ， 本 文 提出 的 VDERG 的 
对 抗 训练 过 程 如 下 : 首先 随机 生成 两 个 GCN 子 模型 , 在 每 轮 
和 迭代 中 根据 输入 图 生成 节点 数 相同 的 随机 图 ， 通 过 随机 梯度 
下 降 优 化 式 (6) 和 (8), 借助 随机 图 分 别 从 邻接 矩阵 和 属性 矩阵 
中 提取 输入 图 的 非 鲁 棒 特 征 。 然 后 基于 节点 关系 和 节点 属性 
中 的 非 鲁 棒 特 征 分 别 对 两 个 子 模型 进行 对 抗 训练 ， 利 用 式 (7) 
和 (9) 的 交叉 彤 损失 函数 优化 子 模型 参数 ， 通 过 Adam 对 网 络 
参数 进行 优化 ， 最 后 对 两 个 子 模型 得 到 的 节点 嵌入 向 量 求 和 
取 均 值 ， 经 过 softmax 函数 得 到 最 终 模 型 的 预测 结果 。 伪 代 
码 如 算法 1 所 示 。 
算法 1 VDERG 的 训练 策略 
输入 : 邻接 矩阵 4 ,属性 矩阵 和 , 标签 2z ,特征 提取 过 程 轮 数 Ni 、Ns ， 
步 长 w 、DG ， 学 习 率 1 。 

输出 : 集成 6CN 模型 的 参数 、0。， 贡 点 预测 结果 。 
Randomly initialize 0 ，0。 // 初 始 化 2 个 GCN 子 模型 的 参数 ; 
for e in range(E): 
(A',X) random_attack((A,X),ptb_rate 二 1) /* 通 过 在 输入 
如 数据 上 实施 扰动 率 1.8 的 随机 攻击 生成 随机 图 */ 
Initialize Se-A”// 利 用 随机 图 的 邻接 矩阵 初始 化 特征 5 
for i in NM: 
通过 式 (6) 以 步 长 a 更 新 5 得 到 (5,X) 
邻接 矩阵 提取 非 鲁 棒 特 征 

end 


了 
91 D0 


// 基 于 骨 入 空间 从 


9001 一 m9: // 更 新 第 
Initialize Te-X'” // 利 用 随机 医 
for 7 in N,: 

通过 式 (8) 以 步 长 8 更 新 了 得 到 (4,T) /* 基 于 内 入 空间 的 
特征 平滑 度 差异 提取 非 鲁 棒 特 征 */ 


end 


个 子 模型 参数 
的 属性 矩阵 初始 化 特征 了 


Cecv(g2 A,T, DJ) 


0 


bo 一 0 一 09 // 更 新 第 二 个 子 模型 参数 


2 


embeddingi 二 gi(5S,X) // 基 于 结构 非 鲁 棒 特征 得 到 远 入 向 量 
embeddings 二 ga( A,T) // 基 于 属性 非 鲁 棒 特征 得 到 嵌入 向 量 


a embeddingi 可 embedding» 


end 

3 ”实验 结果 与 分 析 
3.1 数据 集 描述 

本 文选 取 了 图 领域 常见 的 三 种 引文 网 络 数据 集 作 为 数据 
集 进 行 节点 分 类 任务 实验 ， 数 据 集 的 详细 信息 如 表 1 所 示 。 
实验 中 , 参考 著名 攻击 算法 Metattack 的 数据 集 划 分 方法 , 本 
文 将 所 有 数据 集 按照 10% 和 90% 的 比例 随机 分 割 为 有 标签 入 
和 无 标签 集 ， 再 进一步 把 有 标签 集 按照 50% 和 50% 的 比例 分 


7 
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为 训练 集 和 验证 集 。 好 的 几 种 GCN 防御 算法 在 节点 分 类 准确 率 上 进行 对 比 评估 。 

表 1 数据 集 描 述 Metattack 有 五 个 变种 ， 在 数据 集 Cora 和 Citeseer 上 本 文采 

Tab. 1 Data description 用 攻击 效果 最 好 的 Meta-Self 变种 进行 实验 ; 在 数据 集 

数据 集 节点 数 特征 类 别 边 Pubmed 数据 集 上 , 出 于 节省 时 间 的 内 存 的 考虑 , 本 文采 用 和 

Cora 2708 1433 7 5278 Meta-Self 变种 相似 的 A-Meta-Self 变种 进行 实验 。 实 验 针对 

Citeseer 3327 3703 6 4552 从 0 到 20% 的 扰动 率 进行 了 实验 ， 每 次 提升 5% 扰 动 率 ， 参 
PubMed 19717 500 3 44324 考 实 验 结果 如 表 2 所 示 ， 其 中 GCN、GAT、GCN-Jaccard、 

3.2 ”模型 效果 对 比 Pro-GNN 的 实验 结果 来 自 文献 [17]，SimP-GCN 的 实验 结果 


为 了 验证 本 文 所 提出 的 VDERG 的 对 抗 攻 击 防 御 能 力 ， 来 自 原 论文 。 为 了 使 模型 结果 更 加 客观 、 消 除 深度 学 习 训 练 
本 文 基于 对 抗 攻 击 算 法 Metattack, 将 VDERG 与 目前 效果 最 过 程 中 的 随机 性 ， 所 有 实验 均 重 复 了 10 次 。 


表 2 全 局 攻击 (metattack) 下 节 点 分 类 任务 表现 对 比 
Tab.2 Node classification performance under non-targeted attack (metattack) 

数据 集 扰动 率 /% GCN[19] GAT[20] Pro-GNN[17] SimP-GCN [21] VDERG 
0 83.50+0.44 83.97+0.65 83.42+0.52 81.81+0.62 84.26+0.43 
3 76.55+0.79 80.44+0.74 82.78+0.39 76.43+1.98 83.98+0.63 
Cora 10 70.39+1.28 75.61+0.59 79.03+0.59 73.27+1.93 82.72+1.38 
15 65.10+0.71 65.10+0.71 76.40+1.27 70.75+3.98 81.70+0.71 
20 59.56+2.72 59.94+0.92 73.32+1.56 66.63+6.87 80.23+1.21 
0 71.96+0.55 73.26+0.83 73.28 二 0.69 73.76.+0.78 75.01+t1.09 
5 70.88+0.62 72.89+0.83 73.09+0.34 73.12+0.85 74.16+0.66 
Citeseer 10 67.55+0.89 70.63+0.48 72.51+0.75 72.38+0.67 73.76+0.38 
15 64.52+1.11 69.02+1.09 72.03+1.11 71.75 士 1.54 73.52+0.81 
20 62.03+3.49 61.04+1.52 70.02+2.28 69.37+1.50 73.41+t1.23 
0 87.19+0.09 83.73+0.40 87.33+0.18 87.59.+0.10 87.91+0.23 
5 83.09+0.13 78.00+0.44 87.25+0.09 86.79+0.12 87.87+0.14 
PubMed 10 81.21+0.09 74.93+0.38 87.25+0.09 86.01+0.10 87.76+0.13 
15 78.66+0.12 71.13+0.51 87.20+0.09 85.49+0.11 87.55+0.11 
20 77.35+0.19 68.21+0.96 87.15+0.15 85.37+0.12 87.41+0.15 


从 表 2 的 结果 可 以 看 出 ， 在 扰动 率 为 0 时 ，VDERG 在 ”节点 的 过 平滑 ， 而 VDERG 综合 考虑 结构 信息 能 够 有 效 弥 补 


Cora、Citeseer 和 PubMed 数据 集 上 的 模型 准确 率 分 别 在 目前 这 一 缺陷 。 

最 优 模 型 的 基础 上 提升 了 0.84%、1.25% 和 0.32%， 说 明 表 3 结构 和 属性 消融 实验 对 比 

VDERGE 通过 集成 节点 属性 特征 和 结构 特征 能 够 更 全 面 地 学 Tab. 3 The comparison of structure and features ablation 

习 到 图 数据 蕴涵 的 信息 ， 并 且 通 过 非 鲁 棒 特 征 进行 对 抗 训练 数据 集 扰动 率 /% VDERG-structure VDERG-features VDERG 

不 仅 能 够 提升 模型 鲁 棒 性 ， 还 能 提升 模型 在 干净 数据 集 上 的 0 85.51+0.30 84.48+0.53 84.26+0.43 

表现 。 5 83.82+0.75 83.65+1.21 。 83.98+0.63 
针对 扰动 率 为 5% 至 20% 的 情况 , VDERG 在 三 个 数据 集 Cora 10 82.10+0.85 81.50+1.40 82.72+1.38 

上 都 比 现 有 最 优 模 型 取得 了 更 高 的 准确 率 ， 扰 动 率 的 提升 15 81.69+1.36 81.37+1.18 81.70+0.71 

没有 使 VDERG 像 原 始 GCN 那样 在 准确 率 上 产生 明显 的 下 降 。 20 80.19+1.31 80.12+1.02 80.23+1.21 

在 扰动 率 提 升 的 过 程 中 , 相 较 其 他 方法 , VDERG 的 模型 准确 率 0 74.46+1.06 74.75+0.71 75.01+1.09 

下 降 更 为 缓慢 , 表现 出 了 更 强 的 鲁 棒 性 。 同 现 其 他 分 类 器 相 比 ， 5 73.31+1.04 73.69+1.84 74.16+0.66 

VDERG 在 Cora 数据 集 上 的 表现 提升 最 为 明显 ， 当 扰动 率 为 20% Citeseer 10 73.02+0.62 73.02+0.50 73.76+0.38 

时 ，VDERG 的 准确 率 比 现 有 最 优 模型 高 了 6.91%。 15 73.34+0.47 72.71+1.57 73.52+0.81 

3.3 ”集成 与 单一 特征 学 习 对 比 20 72.18+0.80 72.86+0.95 73.41+1.23 
为 了 研究 集成 方法 在 蔡 身 模型 表现 过 程 中 的 有 效 性 ， 本 ”3.4 模型 不 同 参数 对 比 

小 节 对 比 在 集成 过 程 中 仅 考虑 结构 信息 或 属性 信息 的 模型 表 对 于 本 文 提出 的 VDERG 策略 ， 非 鲁 棒 特 征 的 提取 效率 

现 ， 实 验 结果 如 表 3 所 示 ， 图 中 分 别 展示 了 只 从 结构 信息 提 至 关 重 要 。 因 此 ， 本 小 节 在 10% 扰 动 率 的 Metattack 攻击 下 


取 非 鲁 棒 特 征 的 VDERG-structure 和 只 从 属性 信息 提取 非 的 Cora 数据 集 上 , 研究 分 析 了 结构 非 鲁 棒 特 征 提取 过 程 中 的 
棒 特征 的 VDERG-features 在 数据 集 Cora 和 Citeseer 上 的 结 步 长 c 和 轮 数 户 ， 以 及 属性 非 鲁 棒 特 征 提取 过 程 中 的 步 长 C 
果 。 从 表 中 可 以 看 出 ， 虽 然 在 Cora 数据 集 的 原始 数据 上 ”和 轮 数 生 对 VDERG 效果 的 影响 ， 实 验 结果 如 图 3 所 示 。 本 
VDERG 的 效果 略 进 于 单独 考虑 结构 信息 ,但 在 Citeseer 数据 ，” 文 设 定 步 长 和 步 长 8 的 变化 范围 为 Se-5 到 1， 轮 数 加 入 。 


集 上 以 及 受到 对 抗 攻击 时 ， 综 合 考虑 了 结构 信息 和 属性 信息 ”的 变化 范围 为 1 到 12。 从 图 3 中 可 以 看 出 ,在 两 种 非 鲁 棒 特 
的 VDERG 都 取得 了 最 好 的 分 类 效果 ， 说 明 本 文 提出 的 集成 ”” 征 提取 过 程 中 ， 模 型 的 性 能 随 着 迭代 轮 数 的 变化 呈现 先 上 升 
策略 能 够 有 效 提 升 模型 鲁 棒 性 ， 提 高 对 抗 攻击 下 的 图 信息 表 后 下 降 的 趋势 ， 对 于 结构 信息 的 特征 提取 ， 最 佳 轮 数 为 7; 
征 能 力 。 同 时 ， 实 验 结果 表明 ， 仅 仅 基于 结构 信息 中 的 非 鲁 在 迭代 轮 数 为 8 至 11 时 ， 属 性 信息 特征 提取 随 迭 代 轮 数 变 
特征 进行 对 抗 训练 比 仅 基于 属性 信息 的 方法 效果 更 好 ， 这 ”化 的 曲线 波动 更 明显 , 同样 在 轮 数 为 7 时 取得 最 好 模型 效果 ， 


各 六 


羽 为 基于 特征 平滑 度 差异 提取 非 鲁 棒 特 征 时 可 能 造成 扳 立 。 ”办 代 轮 数 达 到 11 后 模型 性 能 开始 显著 下 降 。 此 外 , 图 中 还 可 
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以 看 出 模型 在 两 种 非 鲁 棒 特征 提取 过 程 中 随 步 长 的 改变 有 着 
相似 的 变化 趋势 ， 都 呈现 先 上 升 后 下 降 的 形势 ， 结 构 非 鲁 棒 
特征 提取 的 最 佳 欠 代 步 长 为 5e-5 ， 属 性 非 鲁 棒 特 征 提 取 的 
最 佳 迭 代步 长 为 Se-4。 
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图 3 ”Cora 数据 集 上 的 参数 分 析 结 果 图 


Fig.3 Results of parameter analysis on Cora dataset 


图 卷 积 神经 网 络 提出 了 一 种 基于 非 鲁 棒 特 征 的 
和 东 策略 。 通 过 从 图 卷 积 层 后 的 娩 入 向 量 中 提取 非 
鲁 棒 特 征 进行 对 抗 训练 ， 能 够 绕 开 直接 构造 对 抗 样本 时 面 | 
的 数据 离散 等 问题 。 为 了 充分 利用 图 数据 信息 ， 本 文 提 出 的 
策略 分 别 从 拓扑 结构 和 节点 属性 两 方面 的 信息 出 发 ， 借 助 随 
机 图 分 别提 取 输 入 图 中 蕴涵 的 非 鲁 棒 特征 ， 利 用 非 鲁 棒 特 征 
对 两 个 子 模型 分 别 进行 对 抗 训 练 ， 并 最 终 集成 两 个 子 模型 得 
到 的 符 入 向 量 ， 得 到 节点 预测 分 类 。 在 引文 网 络 上 的 实验 证 
明 ， 在 Cora、Citeseer、PubMed 原始 数据 集 上 ， 该 策略 较 
前 最 优 模型 分 别提 升 了 0.84%、1.25% 和 0.32% 的 准确 率 ;Cora 
数据 集 上 ， 面 对 20% 扰 动 率 的 对 抗 攻 击 时 ， 能 够 比 现 有 最 优 
模型 提升 6.91% 的 准确 率 ， 以 上 实验 结果 充分 证 明了 本 文 提 
出 的 策略 能 够 提升 模型 在 干净 数据 和 攻击 图 上 的 节点 分 类 任 
务 表现 。 
通过 对 比 集成 模型 与 单一 特征 学 习 模 型 的 实验 结果 可 以 
看 出 ， 不 论 是 在 原始 数据 集 上 还 是 在 攻击 情景 下 ， 集 成 结构 
拓扑 和 节点 属性 的 策略 都 比 单 从 一 个 方面 进行 对 抗 训练 的 模 
型 效果 更 好 。 
在 接 下 来 的 工作 中 ， 本 文 计划 针对 包含 较 多 孤立 节点 的 
据 集 提升 非 鲁 棒 特 征 的 提取 效果 ， 研 究 其 他 图 神经 网 络 模 
吉 构 对 非 鲁 棒 特 征 的 敏感 度 以 及 学 习 表 现 ， 更 深入 探索 图 
据 中 的 非 鲁 棒 特 征 与 对 抗 攻击 间 的 关系 。 
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